#Smart Voice 1.0
3000萬人沒聽出是AI?TTS六大門派混戰,我直接暴力測試
事情是這樣的。最近幾個月,我但凡打開視訊號或者抖音,總被一個侃侃而談的“科技大佬”刷屏。這哥們叫「硅基大司馬」,專門講中國硬核科技,從晶片到光刻機,從新能源到機器人,啥都懂,啥都聊。最離譜的是他的更新頻率和產量,高得不像人類,整個矩陣,每天有20-30篇他的科技科普視訊產出!我以為,又是那個MCN機構捧出來的卷王。結果有人告訴我,這背後壓根不是「人」?我當時就愣了。那語氣的抑揚頓挫、自然的氣息律動,那種講到中國科技時不自覺挺直腰桿的勁兒,太像一個真的科技大佬坐在你面前吹牛了。我查了下,大司馬在全網幾十個矩陣帳號,已經有3000 萬粉絲,半年時間漲粉就2200 萬,每月 2 億觀看量,企業家 IP 榜上排在他後面的是周鴻禕、余承東、俞敏洪一眾大佬。這就不是玩票了,這是一場社會實驗等級的行為藝術。我立刻來了興趣。能撐起這種千萬級粉絲盤、讓人完全聽不出看不出破綻的AI,是什麼妖怪技術?順藤摸瓜,我挖到了硅基大司馬背後的聲音引擎——Smart Voice 1.0,號稱“一次成型、無需返工”。口說無憑,既然要測,那就玩把大的!然後,我拉上了目前市面上號稱SOTA等級TTS,做了一場慘無人道的暴力橫向測試。TTS六大門派圍攻光明頂,誰在裸泳?我在網上找的司馬華鵬的採訪,這放出來你們好有個對照。先從om**開始,這家的效果出來,好像一個沒有感情的讀稿機器,語調平直得像一根繃直的線,沒有什麼情緒的起伏。接著是Min****,這家失真的有點離譜,機械感很重。喉嚨裡像卡著東西,聲音像從一根生鏽的鋼管裡傳出來的。然後是Qw**,對比前面幾家,這家起碼聲音沒失真,不過在斷句節奏上有點不穩定,還是會有機械感。再然後,火**,這一家,和原聲偏差很大,完全不像本人。聽起來就像10年前打10086客服,電話那頭傳來的語音。好,重頭戲來了。Elev*****,你知道我最期待那家嗎?就是它。全球TTS市場份額第一,我滿心以為它會給我一個驚喜,結果呢?太心酸了。聽起來像是一個外國人在講中文,那種努力想模仿中國人講話,但發音但每個音都不在點子上的外國人。最後, Smart Voice 1.0我去,這才是該有的樣子。和本人聲線、音色的一致度,一字就是“像”。再有就是那種停頓時的呼吸感,全都在,甚至還有人講話時候那種猶豫感!一次成型,不需要返工,這才是關鍵。說到這個「一次成型」,我必須多聊幾句。很多人可能不知道,傳統流程做一分鐘商業級音訊,成本有多離譜。我查了一下。專業語音稽核質檢人員,日薪大概650到1100元。處理1小時音訊需要4到8小時,也就是說一天只能處理約1到2小時音訊。折算每分鐘稽核成本,約10到37元。如果算配音費用那更貴了,日薪2000到5000元。更重要的是時間。音訊出來了要聽,聽完要改,改完要再審。調音、改稿、稽核。如果再加上返工,傳統流程做一分鐘商業級音訊,成本輕鬆過百。Smart Voice 1.0呢?10元每分鐘。一次生成,不需要聽審,不用返工,直接上線。「硅基大司馬」幾十個矩陣帳號,半年漲粉2200萬,累計粉絲3000萬。每月2個億流量,單條視訊4000萬播放。榜單連續三個月TOP3,周鴻禕、余承東、何小鵬、俞敏洪、魏建軍一票大佬都在他後面。這不是實驗室demo,是真實戰場上的真刀真槍。說到這,大家盲聽試試吧。最後我也會在留言區公佈揭曉。Smart Voice 1.0 的出現,意味著AI語音賽道正在從“實驗室的玩具”向“工業級的拳頭產品”轉變。那些只會“念字”的TTS產品,如果不趕緊跟上,眼看就要被甩出幾條街。最後,我知道很多做內容、搞IP、做企業品牌的朋友已經對這個技術飢渴難耐了。我幫你們要了個福利。這是我從官方拿到的,Smart Voice 1.0內測通道。最後,我想回到開頭那個視訊。我現在知道了,它是AI合成的。但諷刺的是,我知道這個事實之後,再去聽他的視訊,反而覺得更震撼了。1880年代電力剛開始普及的時候,大部分人只是把電力當成一種更乾淨的蠟燭替代品,用來點燈。但真正吃到電力紅利的人,是最早想明白電力到底能幹什麼的人,工廠不用再圍著蒸汽機佈局了,流水線的形態整個被重塑了。AI語音現在就像那個階段。很多人還在拿它當「便宜的配音替代品」,但接下來幾年,聲音會變成無限供給的基礎設施,所有依賴真人聲音的商業模式都會被重構。當聲音可以無限供給的時候,內容和傳媒產業才真正具備了規模化的條件。這才是這次測試最讓我震撼的地方。 (識焗)